LAION

出典: フリー百科事典『ウィキペディア(Wikipedia)』
ライオン
LAION
(Large-scale Artificial Intelligence Open Network)
創立者 Christoph Schuhmann
Jenia Jitsev
Richard Vencu
Robert Kaczmarczyk
Theo Coombes
Mehdi Cherti
Aarush Katta
Jan Ebert
団体種類 非営利団体
活動内容 人工知能
ウェブサイト https://laion.ai/
テンプレートを表示

LAION (ライオン)はクローラデータなどからAI基盤モデルやデータセットを形成するドイツの非営利団体[1][2]。Webから無断でスクレイピングされた画像とキャプションの大規模なデータセットを多く公開したことで最もよく知られ、Stable DiffusionMidjourneyNovelAIなど多くの有名なtext-to-imageモデル英語版の基礎データに利用されている[3][4][5][2]。特に58億5000万もの画像データセットを搭載した「LAION-5B」が有名である[2][6]LAIONは「Large-scale Artificial Intelligence Open Network」の頭文字である[1]

2023年2月、LAIONはゲッティイメージズStable Diffusionを相手取った訴訟で名指しされた[7][8]。2023年4月、トレーニングセットから画像を削除するよう求めたドイツ人の写真家から直接訴えられた[9]

2023年4月15日、LAIONとその協力者たちは、オープンソースのAIアシスタントチャットボット「OpenAssistant」を公開した。

LAIONのデータセット群はAI利用者に重宝される一方で、含まれる画像は基本的に権利者の同意なく収集されていることなど、様々な分野から問題の指摘がされており、データセットを利用したAI企業が訴訟されるなどしている[2][9][10][11]

画像データセット[編集]

LAIONは、収集された画像とその説明文であるキャプションとが紐づけされた大規模なデータセットを多数公開しており、AI研究者に広く利用されている[2]。LAION-400MやLAION-5Bは特に有名である[2]。これらLAIONのデータはアメリカの非営利団体コモン・クロールがWebページからスクレイピングしたデータセットから、それぞれの権利者に同意なく取得されたものである[12][2]。コモン・クロールは毎月30億以上のウェブサイトをスクレイピングしてデータを収集している[2]。LAION創設者のクリストフ・シューマンは、ネット巡回で収集されたHTMLコードからimgタグで画像を探し出し、そのimg内の代替テキストalt属性をキャプションとして関連付けた[12][2]。そして画像認識AIのCLIPを使い、キャプションとの一致率の低い画像を特定して削除した[13]。LAIONは、スクレイピングされた画像自体のコンテンツを所有せず、データセットには画像を示すURLが含まれており、利用者は自分でダウンロードする必要がある[14][15]

2022年9月にMetaが発表した動画生成AIのMake A VideoもLAIONのデータセットが用いられている[16]

LAION-400Mは、2021年8月に公開された最初のデータセットで、4億の画像とキャプションのセットで構成されていた[17]。このセットは、2014年から2021年の間にコモン・クロールによってランダムに収集されたWebページのサブセットから抽出された[17]。これは、OpenAIがCLIPモデルのトレーニングに使用した4億の画像とキャプションのペアを収集するために使用した作業を再現する試みだった[13]。OpenAIは基盤モデルのコードと重みはオープンソース化したが、トレーニングデータセットについてはオープンソース化しなかった[13]

2022年にGoogle Brain英語版が発表したtext-to-imageモデルのImagenはプライベートな内部データセットと組み合わせてLAION-400Mでトレーニングされた[18]

LAION-5Bは、2022年3月に「LAION-400M」の後継として、58億5000万の画像とキャプションの組み合わせで構成されたデータセットである[6][2]。公開時点では、画像とキャプションの無料で利用できるデータセットとしては最大だった[13]。その開発にはDoodlebot、 Hugging FaceやStability AIなどのAI関係の企業が資金提供をしている[19]

このデータセットを利用している生成AIは、Stability AIのStable Diffusion、Midjourney、AnlatanのNovelAI、DeviantArtのDreamUpなどがある[20][21][11]

LAION-5Bの画像元として判明しているサイトは多岐にわたり、PinterestShopifyWix.com、SlidePlayer、Danbooru、pixiv、X(旧Twitter)、Flickr、DeviantArt、Tumblrなども含まれる[2][22][23]

CommonPoolは、2023年4月に公開された、128億の画像とキャプションで構成されたtext-to-imageモデルのデータセットである[2]。他のデータセットと同様にコモン・クロールから取得された画像が利用されている[2]。マルチモーダルのデータセットのベンチマークDataCompの一部である[2]

課題・論争[編集]

LAION-5BなどLAIONの画像データセットには、いくつかの研究によると、レイプポルノ児童性虐待画像(CSAM)、悪意あるステレオタイプ人種差別的および民族的中傷、医療写真、戦争写真、事件や事故の犠牲者写真、想像上の侵攻画像、宗教的なタブー画像、その他の非常に問題のあるコンテンツの画像とテキストの組み合わせが含まれている[23][24][25][26][27][28]バイエルン放送の調査によると、Hugging Faceから提供されるLAIONのデータセットには、大量のプライベートデータや機密データが含まれていることがわかった[5]

2022年9月、アメリカの技術者アンディ・バイオは、大学や非営利団体などがデータセット開発を担うことが、大手企業による説明責任逃れの隠れ蓑になっていると見ている[16][29]。バイオは、学校などの研究施設や非営利団体のデータ収集とモデルの学習は、アメリカの著作権法で認可するフェアユースに当てはまるかもしれないが、企業がそのデータセットを訓練に使用して商用で画像を出力するのは、一種のデータロンダリングだと批判した[16][29]

著作権[編集]

LAIONのデータセットが無断でWebからスクレイピングされて収集された画像であることは、アーティストからは「権利を侵害している」と批判の声が上がっている[27][30]。『名探偵ピカチュウ』にも参加したコンセプトアーティストのRJ Palmerも人間のアーティストを心配するコメントを出している[27]

2023年1月、アメリカでは、漫画家のサラ・アンダーセン英語版、イラストレーターのケリー・マッカーナン英語版、ビジュアルアーティストのカーラ・オーティスたちが、著作権侵害でありデジタルミレニアム著作権法に違反するとして、生成AIのStable DiffusionのStability AI社とMidjourneyと芸術家コミュニティのDeviantArtに対して集団訴訟を起こし、3社が使用したLAION-5Bのデータセットによる画像の無断使用を問題視した[21][11][31][32]。2024年1月、画像生成AI・Midjourneyが機械訓練に使用した1万6,000人以上のアーティスト名を記録したリストが見つかる。その中にはウォルト・ディズニー草間彌生などの有名クリエイターの名前もあった[33]ライアットゲームズの開発者ジョン・ラムによると、Midjourneyの開発者らが選んだアーティストたちである[33]。2023年に集団訴訟を起こしたアーティストも多くこのリストに入っていた[33]。イギリスのアーティストたちの間でもアメリカでのアーティストたちの訴訟に影響を受け、団結する必要があるという動きが出ている[11]

DeviantArtはアメリカの芸術家コミュニティで3億5000万点以上の作品が投稿されていたが、作品がLAION-5Bを通してStable Diffusionに使用されたことが判明している[21]。バターリック弁護士によると、DeviantArtはAIから自社の投稿作品を守るどころか、自社から無許可に収集された画像のAI利用を放置したという[21]。弁護士は、DeviantArt投稿者の権利を侵害するLAION-5Bを使用したStable Diffusionを基盤にして有料の生成AIアプリDreamUpを公開したことを指摘した[21]

AnlatanのNovelAIが使うデータセットLAION-5BにDanbooruの画像が入っていることが判明している[22][34]。DanbooruはpixivやX(旧Twitter)などのSNSに投稿された二次元イラストが転載されていることが問題になっているサイトである[22][34]pixivでは、自身の作品のデータがAIに不正利用されており、pixivの対応が適切でないとしてユーザーたちの間で抗議の意味で非表示・削除にする動きが起こった[35]

肖像権・プライバシー[編集]

2022年9月にアメリカ、ニューハンプシャー大学法学部のTiffany Li助教は、一般人の顔写真がLAIONに許諾なく使用されてることを指摘している[36]。また、LAION自体が画像を直接所有しないため、誰が最初に収集しデータセットに入れて公開したのかを特定するのが容易ではなく、責任者かを明確にして処罰するのも困難なことが問題を複雑化させているとも述べた[36]。カナダ・アメリカのメディアMotherboardは、プライバシー侵害の恐れとその解消が困難であり、それ以前に被害者本人が気づかない問題もあると警告する[36]。LAIONを含めて、LAIONのデータセットに関連するAI企業の多くは削除依頼や訴訟などで問題が発生した際に、悪いのは自分たちでなくインターネット全体であるとして責任をたらい回しにしたコメントを発表している[36][3][15][16]

医療写真[編集]

2022年9月にアメリカ、カリフォルニアの画像生成AI利用者がLAION-5B内の画像を検索できる「Have I Been Trained?」を調べる中で自分の医療用の顔写真が含まれていることを発見する[14][15]。利用者がLAIONに削除の方法を問い合わせたが、LAION側からは自分たちは画像を直接所有してないため、所有するサイトに削除を依頼するのが最良だとの回答が返ってきた[14][15]。ニュースサイトArs Technicaの調査では同様の医療写真が数千枚見つかっている[14][15]

事件・事故・災害などの犠牲者写真[編集]

2023年12月、読売新聞の取材でStability AIのStable Diffusionの使うLAION-5B内に事件や災害の犠牲者の写真が大量に取り込まれていることが判明した[37]。読売新聞によると、ニュースサイトや転載された掲示板などが収集元と考えられるという[37]。1997年に兵庫県で起きた神戸連続児童殺傷事件の被害児童や、2000年の東京の世田谷一家殺害事件の家族の写真、2015年に過労で自殺した電通の新入社員の顔写真も含まれていた[37]。 2001年のアメリカ同時多発テロ事件や2011年東日本大震災のなどテロや災害の犠牲者の写真も確認された[37]。電通の新入社員の遺族は、過重労働の実態や教訓を伝えるためと報道各社に顔写真を提供しており、AIのデータに使われたことに困惑してやめてほしいと訴えた。死者のデジタルデータの事情を良く知る関東学院大の教授は、犠牲者の遺族にはAIへの利用は想定外で死者の尊厳にもかかわると無断利用の問題を指摘した[37]

児童性虐待写真[編集]

2023年12月、スタンフォード大学インターネット観測所はLAION-5Bに関する報告書を発表し、児童性虐待画像(CSAM)へのリンクが疑われる事例が3,226件あり、そのうち1,008件が外部で検証されていることを発見した[38][39][20]。これらCSAMは様々なwebサイト、ソーシャルメディア、アダルト動画サイトなどから収集されたことが判明している[20]。2023年12月、読売新聞が調査したところ、Stability AIの使うLAIONのデータセットに1993年出版の裸体の少女の写真集の画像を発見する[28]。また他児童の裸の写真が複数確認された[28]。LAIONはスタンフォード大学が示した検証を受けて「違法なコンテンツに対するゼロトレランスポリシー」と「十分な注意」を理由に、LAION-5BとLAION-400Mを一時的に削除した[40][28]。 しかし、2024年2月、Stability AIの提携企業がデータセットの中に新たに児童の性的画像を見つけたことを明らかにした[28]

OpenAssistant[編集]

OpenAssistant
開発元 LAION and contributors
初版 2023年4月15日 (13か月前) (2023-04-15)
種別
ライセンス Apache License 2.0
公式サイト open-assistant.io
テンプレートを表示

OpenAssistantは、タスクを理解してサードパーティのシステムと対話し、情報を動的に取得して実行するオープンソースのチャットを基盤にしたAIアシスタントである。このプロジェクトは、LAIONとボランティアのグループによって共同開発された。開発の目標の1つには、コンシューマーハードウェアでローカルに実行できる大規模言語モデルへの無料アクセスが含まれる[41][42]。1万3,500人以上のボランティアが関わる世界的なクラウドソーシングの寄付による資金提供で支援され、60万のデータポイントが人力で設定された[42][43]

脚注[編集]

  1. ^ a b About”. LAION.ai. 2022年9月26日閲覧。
  2. ^ a b c d e f g h i j k l m n きちんとチェックすると「781年」かかるAI用データセット「LAION-5B」の課題がよくわかる「Models All The Way Down」”. GIGAZINE (2024年4月1日). 2024年5月12日閲覧。
  3. ^ a b Edwards, Benj (2022年9月15日). “Have AI image generators assimilated your art? New tool lets you check”. Ars Technica. https://arstechnica.com/information-technology/2022/09/have-ai-image-generators-assimilated-your-art-new-tool-lets-you-check/ 
  4. ^ Newman, Marissa; Cantrill, Aggi (2023年4月24日). “The Future of AI Relies on a High School Teacher's Free Database” (英語). Bloomberg News. https://www.bloomberg.com/news/features/2023-04-24/a-high-school-teacher-s-free-image-database-powers-ai-unicorns 2023年4月24日閲覧。 
  5. ^ a b We Are All Raw Material for AI”. Bayerischer Rundfunk (2023年7月7日). 2024年5月12日閲覧。
  6. ^ a b Beaumont, Romain (2022年3月3日). “LAION-5B: A New Era of Open Large-Scale Multi-Modal Datasets”. LAION blog. 2024年5月12日閲覧。
  7. ^ Getty Images (US), Inc. v. Stability AI, Inc., 1:23-cv-00135” (英語). CourtListener. 2023年2月8日閲覧。
  8. ^ 画像生成AI「Stable Diffusion」開発元のStability AIがかつてGoogleを和解に持ち込ませたこともあるストックフォトサイトのGetty Imagesに訴えられる”. GIGAZINE (2023年1月18日). 2024年5月12日閲覧。
  9. ^ a b A Photographer Tried to Get His Photos Removed from an AI Dataset. He Got an Invoice Instead.” (英語). Vice (2023年4月28日). 2023年5月4日閲覧。
  10. ^ Class Action Filed Against Stability AI, Midjourney, and DeviantArt for DMCA Violations, Right of Publicity Violations, Unlawful Competition, Breach of TOS”. PR Newswire. Cision (2023年1月14日). 2024年5月12日閲覧。
  11. ^ a b c d 画像生成AI「Stable Diffusion」と「Midjourney」に対する集団訴訟でイギリスの写真家が団結呼びかけ”. GIGAZINE (2024年1月25日). 2024年5月12日閲覧。
  12. ^ a b 画像生成AI「Stable Diffusion」が使う無料のデータセット「LAION」の構築を率いているのは1人の高校教師だった”. GIGAZINE (2023年4月26日). 2024年5月12日閲覧。
  13. ^ a b c d Alford, Anthony (2022年5月17日). “LAION Releases Five Billion Image-Text Pair Dataset LAION-5B”. InfoQ. 2024年5月12日閲覧。
  14. ^ a b c d Edwards, Benj (2022年9月21日). “Artist finds private medical record photos in popular AI training data set”. Ars Technica. https://arstechnica.com/information-technology/2022/09/artist-finds-private-medical-record-photos-in-popular-ai-training-data-set/ 
  15. ^ a b c d e 画像生成AIユーザーがAI学習用データセットから「自分の医療記録の写真」を発見してしまう”. GIGAZINE (2022年9月22日). 2024年5月12日閲覧。
  16. ^ a b c d 「AI学習用のデータセット作成を大学や非営利団体に任せることで企業は法的責任から逃げている」という批判”. GIGAZINE (2022年10月19日). 2024年5月12日閲覧。
  17. ^ a b Schuhmann, Christoph (2021年8月8日). “LAION-400-Million Open Dataset”. LAION blog. 2022年9月26日閲覧。
  18. ^ Saharia, Chitwan; Chan, William; Saxena, Saurabh; Li, Lala; Whang, Jay; Denton, Emily; Kamyar Seyed Ghasemipour, Seyed; Karagol Ayan, Burcu; Sara Mahdavi, S.; Gontijo Lopes, Rapha; Salimans, Tim; Ho, Jonathan; J Fleet, David; Norouzi, Mohammad (23 May 2022). "Photorealistic Text-to-Image Diffusion Models with Deep Language Understanding". arXiv:2205.11487 [cs.CV]。
  19. ^ Wiggers, Kyle (2022年8月12日). “This startup is setting a DALL-E 2-like AI free, consequences be damned”. TechCrunch. 2024年5月12日閲覧。
  20. ^ a b c 画像生成AI「Stable Diffusion」などに使われた50億枚超の画像セット「LAION-5B」に1008枚の児童ポルノ画像が入っていることが判明し削除へ”. GIGAZINE (2023年12月21日). 2024年5月12日閲覧。
  21. ^ a b c d e 画像生成AI「Stable Diffusion」と「Midjourney」に対して集団訴訟が提起される”. GIGAZINE (2023年1月16日). 2024年5月12日閲覧。
  22. ^ a b c 画像生成AIサービス「NovelAI Diffusion」が無断転載サイトからの学習で物議 法的観点からも複雑な事態に”. Yahoo! Japan News (2022年8月5日). 2022年10月19日時点のオリジナルよりアーカイブ。2024年5月12日閲覧。
  23. ^ a b 23億枚もの画像で構成された画像生成AI「Stable Diffusion」のデータセットのうち1200万枚がどこから入手した画像かを調査した結果が公開される”. GIGAZINE (2022年8月31日). 2024年5月12日閲覧。
  24. ^ Birhane, Abeba; Prabhu, Vinay Uday; Kahembwe, Emmanuel (2021). Multimodal datasets: misogyny, pornography, and malignant stereotypes. arXiv:2110.01963. 
  25. ^ Birhane, Abeba; Prabhu, Vinay; Han, Sang; Boddeti, Vishnu Naresh; Luccioni, Alexandra Sasha (2023-11-06), Into the LAIONs Den: Investigating Hate in Multimodal Datasets, arXiv:2311.03449 
  26. ^ 画像生成AIに自分の作品が勝手に使われたかどうかを検索できる「Have I Been Trained?」”. GIGAZINE (2022年9月15日). 2024年5月12日閲覧。
  27. ^ a b c まるで人間のアーティストが描いたような画像を生成するAIが「アーティストの権利を侵害している」と批判される”. GIGAZINE (2022年8月15日). 2024年5月12日閲覧。
  28. ^ a b c d e 生成AI、児童ポルノ画像を学習か…専門家「被害者の人権侵害恐れ」”. 読売新聞オンライン. 読売新聞 (2024年3月21日). 2024年5月12日閲覧。
  29. ^ a b Baio, Andy (2022年9月30日). “AI Data Laundering: How Academic and Nonprofit Researchers Shield Tech Companies from Accountability”. waxy.org. 2024年5月12日閲覧。
  30. ^ AI無断学習で作画「私の作品のつぎはぎだ」…コピーライト・ロンダリングがもたらす「文化の衰退」”. 読売新聞オンライン. 読売新聞 (2024年2月14日). 2024年5月12日閲覧。
  31. ^ 米画家ら、画像生成AI「Stable Diffusion」と「Midjourney」を提訴”. PC Watch. インプレス (2023年1月17日). 2024年5月12日閲覧。
  32. ^ 作家そっくりの作風、チャットGPTが「作品」…著作権の保護曖昧”. 読売新聞オンライン. 読売新聞 (2023年4月26日). 2024年5月12日閲覧。
  33. ^ a b c MidjourneyがAIトレーニングに用いた6歳児を含む1万6000人のアーティストリストの存在が発覚”. GIGAZINE (2024年1月11日). 2024年5月12日閲覧。
  34. ^ a b イラスト自動生成AI「NovelAI」について学習元となったDanbooru公式が声明を発表”. GIGAZINE (2022年10月5日). 2024年5月12日閲覧。
  35. ^ AI学習リスクにイラストレーターが抗議、pixivの作品非公開・削除の動き”. ledge.ai (2023年5月13日). 2024年5月12日閲覧。
  36. ^ a b c d 「Stable Diffusion」のような画像生成AIに自分の顔写真が使われている可能性は決して低くないとの警告”. GIGAZINE (2022年9月27日). 2024年5月12日閲覧。
  37. ^ a b c d e 事件・事故の犠牲者の顔写真、生成AIが無断使用…遺族「使うのやめて」・識者「尊厳にかかわる」”. 読売新聞オンライン. 読売新聞 (2024年4月7日). 2024年5月12日閲覧。
  38. ^ 生成AIの学習データに児童虐待画像 米大学研究者が指摘”. 日本経済新聞 (2022年12月21日). 2024年5月12日閲覧。
  39. ^ 人気の画像生成AIモデルが子どもの虐待画像でトレーニングされていたことが判明 スタンフォード大学調査”. ledge.ai (2024年1月13日). 2024年5月12日閲覧。
  40. ^ Largest Dataset Powering AI Images Removed After Discovery of Child Sexual Abuse Material” (英語). 404 Media (2023年12月20日). 2023年12月22日閲覧。
  41. ^ Open-Assistant, LAION AI, (2023-03-09), https://github.com/LAION-AI/Open-Assistant 2023年3月9日閲覧。 
  42. ^ a b Köpf, Andreas; Kilcher, Yannic; von Rütte, Dimitri; Anagnostidis, Sotiris; Tam, Zhi-Rui; Stevens, Keith; Barhoum, Abdullah; Duc, Nguyen Minh; Stanley, Oliver; Nagyfi, Richárd; ES, Shahul; Suri, Sameer; Glushkov, David; Dantuluri, Arnav; Maguire, Andrew (14 April 2023). "OpenAssistant Conversations -- Democratizing Large Language Model Alignment". arXiv:2304.07327 [cs.CL]。
  43. ^ Open Assistant: Explore the Possibilities of Open and Collaborative Chatbot Development” (英語). KDnuggets. 2023年5月5日閲覧。

関連項目[編集]

外部リンク[編集]